Its numerous applications make multi-human 3D pose estimation a remarkably impactful area of research. Nevertheless, assuming a multiple-view system composed of several regular RGB cameras, 3D multi-pose estimation presents several challenges. First of all, each person must be uniquely identified in the different views to separate the 2D information provided by the cameras. Secondly, the 3D pose estimation process from the multi-view 2D information of each person must be robust against noise and potential occlusions in the scenario. In this work, we address these two challenges with the help of deep learning. Specifically, we present a model based on Graph Neural Networks capable of predicting the cross-view correspondence of the people in the scenario along with a Multilayer Perceptron that takes the 2D points to yield the 3D poses of each person. These two models are trained in a self-supervised manner, thus avoiding the need for large datasets with 3D annotations.
translated by 谷歌翻译
近年来,由于它在机器人技术和自主驾驶中的应用,因此自我监督的单眼深度估计已成为一项激烈研究的主题。最近的许多工作都集中在通过提高体系结构复杂性来改善深度估计。本文表明,也可以通过改善学习过程而不是提高模型复杂性来实现最先进的绩效。更具体地说,我们建议(i)仅在训练期间对前几个时期使用不变姿势损失,(ii)训练时忽略小的潜在动态物体,(iii)采用基于外观的方法分别估算物体姿势,以实现真正动态的姿势对象。我们证明这些简化将GPU的内存使用量减少了29%,并导致定性和定量改进的深度图
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
尖峰神经网络(SNN)提供了一个新的计算范式,能够高度平行,实时处理。光子设备是设计与SNN计算范式相匹配的高带宽,平行体系结构的理想选择。 CMO和光子元件的协整允许将低损耗的光子设备与模拟电子设备结合使用,以更大的非线性计算元件的灵活性。因此,我们在整体硅光子学(SIPH)过程上设计和模拟了光电尖峰神经元电路,该过程复制了超出泄漏的集成和火(LIF)之外有用的尖峰行为。此外,我们探索了两种学习算法,具有使用Mach-Zehnder干涉法(MZI)网格作为突触互连的片上学习的潜力。实验证明了随机反向传播(RPB)的变体,并在简单分类任务上与标准线性回归的性能相匹配。同时,将对比性HEBBIAN学习(CHL)规则应用于由MZI网格组成的模拟神经网络,以进行随机输入输出映射任务。受CHL训练的MZI网络的性能比随机猜测更好,但不符合理想神经网络的性能(没有MZI网格施加的约束)。通过这些努力,我们证明了协调的CMO和SIPH技术非常适合可扩展的SNN计算体系结构的设计。
translated by 谷歌翻译
计算幽默检测系统很少对幽默反应的主观性进行建模,或者考虑对幽默的替代反应 - 即犯罪。我们分析了不同年龄段的男性和女性注释者的大量幽默和犯罪评级数据集。我们发现女性比男性更强烈地联系这两个概念,她们倾向于给出较低的幽默评分和更高的进攻得分。我们还发现,幽默与犯罪之间的相关性随着年龄的增长而增加。尽管幽默发现没有性别或年龄差异,但女性和较旧的注释者表示,她们比男性更频繁地理解笑话文本。我们讨论对计算幽默检测和下游任务的影响。
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
在上一篇论文中,我们提出了一组概念,即公理架构和算法,这些算法可以被代理商用于学习描述其行为,目标,能力和环境。当前的论文提出了一组新的概念,即公理架构和算法,使代理商可以学习对观察到的行为(例如,困惑行为),其参与者(例如,不受欢迎的命题或动作)及其环境的新描述(例如,不兼容的命题)。每个学习的描述(例如,某个动作都可以防止将来执行另一个动作)由实体之间的关系(命题或动作)之间的关系表示,并且由代理人,仅通过观察,使用独立于域的公理模式来学习或学习算法。代理人用来表示他们学到的描述的关系受到了修辞学理论(RST)的启发。该论文的主要贡献是关系家族,尽管受到首次关系特许权的启发。家庭关系的准确定义虽然涉及一组悬浮概念,它们的定义和相应的算法被提出。尽管家庭的关系一旦从代理商的观察中提取出来,就会对观察到的行为感到惊讶,并在某些情况下为此提供了理由。本文使用实施的软件在演示方案中显示了提出的提案的结果。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
人工智能(AI)系统在接下来的几十年中有很大的希望可以改善医疗保健。具体而言,利用多个数据源和输入模式的AI系统有望成为一种可行的方法,可以在广泛的应用程序中提供更准确的结果和可部署的管道。在这项工作中,我们提出并评估一个统一的医学中的整体AI(HAIM)框架,以促进利用多模式输入的AI系统的生成和测试。我们的方法使用可通用的数据预处理和机器学习建模阶段,可以很容易地适应医疗保健环境中的研究和部署。我们通过训练和表征基于MIMIC-IV-MM的14,324个独立模型来评估我们的HAIM框架,该模型是一种多模式临床数据库(n = 34,537个样本),其中包含7,279个独特的住院和6,485名患者,涵盖了4个数据模态的所有可能输入组合(即,所有可能的输入组合)表格,时间序列,文本和图像),11个独特的数据源和12个预测任务。我们表明,该框架可以始终如一地生产出在各种医疗保健示范中超过相似的单源方法的模型(乘以6-33%),包括10种不同的胸部病理学诊断,以及休息时间和48小时的死亡率预测。我们还使用Shapley值量化了每种模式和数据源的贡献,这证明了数据类型重要性的异质性以及在不同医疗保健相关的任务中多模式输入的必要性。我们的整体医学AI(HAIM)框架的可推广性能和灵活性可以为未来的临床和运营医疗环境中的多模式预测系统提供有希望的途径。
translated by 谷歌翻译
我们为高分辨率自由呼吸肺MRI介绍了无监督的运动补偿重建方案。我们将时间序列中的图像帧模拟为3D模板图像卷的变形版本。我们假设变形图在高维空间中的光滑歧管上是点。具体地,我们在每次时刻模拟变形图作为基于CNN的发电机的输出,该发电机的输出具有由低维潜航向量驱动的所有时间框架的权重。潜伏向量的时间序列占数据集中的动态,包括呼吸运动和散装运动。模板图像卷,发电机的参数,以及潜在矢量的直接从k-t空间数据以无监督的方式学习。我们的实验结果表明,与最先进的方法相比,改进了重建,特别是在扫描期间散装运动的背景下。
translated by 谷歌翻译